机器学习---最小二乘线性回归模型的5个基本假设（Machine Learning Least Squares Linear Regression Assumptions）

在之前的文章《机器学习---线性回归（Machine Learning Linear Regression）》中说到，使用最小二乘回归模型需要满足一些假设条件。但是这些假设条件却往往是人们容易忽略的地方。如果不考虑模型的适用情况，就只会得到错误的模型。下面来看一下，使用最小二乘回归模型需要满足哪些假设，以及如果不满足这些假设条件会产生怎样的后果。

最小二乘回归模型的5个基本假设：

自变量（X）和因变量（y）线性相关
自变量（X） $X_{1} ， X_{2}$
$X_{1} ， X_{2}$
误差项（ $ε$
$ε$

$ε$ 自变量（X）和因变量（y）线性相关

$ε$

第二个假设：自变量（X） $X_{1} ， X_{2}$

$X_{1} ， X_{2}$ $ε$ ollinearity） $ε$ $ε$

$ε$

第三个假设： $X_{1} ， X_{2}$

随机误差项的各期望值之间存在着相关关系，称随机误差项之间存在自相关性（autocorrelation）。自相关性通常出现在时间序列里，后一项依赖于前一项；也可能出现在有偏差的样本里，比如样本搜集自同一个家庭的成员。当自相关性出现的时候，预测值的标准差往往比真实的小，进而会导致置信区间变窄，同时，较低的标准差会导致p值较小，这会让我们得到错误的假设检验结果。

第四个假设：误差项（ $ε$

这里其实分为两个假设。第一个假设：误差项服从均值为0的正态分布。第二个假设：误差项的方差为定值（不变）。这两个假设是为了保证回归模型在小样本下能够顺利进行假设检验。正态分布假设仅在小样本的情况下需要，大样本的情况下则不需要，因为有中心极限定理做正态性的支撑。而方差齐性则保证最小二乘法估计出来的统计量具有最小的方差。如果违反了这个假设，置信区间会变宽，这称之为异方差性（heteroscedasticity）。当异方差性出现的时候，如果仍采用最小二乘法估计参数，会导致参数的t检验值被高估，可能造成本来不显著的某些参数变为显著，使假设检验失去意义。

第五个假设： $ε$

模型中一个或多个自变量与随机误差项存在相关关系，这称之为内生性（endogeneity）。内生性通常由于遗漏变量而导致的，因此是一个普遍存在的问题。内生性会导致模型参数估计不准确。

posted @ 2019-02-11 21:40 HuZihu 阅读(16126) 评论(0) 编辑收藏举报

刷新页面返回顶部

HuZihu

机器学习---最小二乘线性回归模型的5个基本假设（Machine Learning Least Squares Linear Regression Assumptions）

公告